近年来,基于深度学习的面部检测算法取得了长足的进步。这些算法通常可以分为两类,即诸如更快的R-CNN和像Yolo这样的单阶段检测器之类的两个阶段检测器。由于准确性和速度之间的平衡更好,因此在许多应用中广泛使用了一阶段探测器。在本文中,我们提出了一个基于一阶段检测器Yolov5的实时面部检测器,名为Yolo-Facev2。我们设计一个称为RFE的接收场增强模块,以增强小面的接受场,并使用NWD损失来弥补IOU对微小物体的位置偏差的敏感性。对于面部阻塞,我们提出了一个名为Seam的注意模块,并引入了排斥损失以解决它。此外,我们使用重量函数幻灯片来解决简单和硬样品之间的不平衡,并使用有效的接收场的信息来设计锚。宽面数据集上的实验结果表明,在所有简单,中和硬子集中都可以找到我们的面部检测器及其变体的表现及其变体。源代码https://github.com/krasjet-yu/yolo-facev2
translated by 谷歌翻译
我们展示了一个下一代神经网络架构,马赛克,用于移动设备上的高效和准确的语义图像分割。MOSAIC是通过各种移动硬件平台使用常用的神经操作设计,以灵活地部署各种移动平台。利用简单的非对称编码器 - 解码器结构,该解码器结构由有效的多尺度上下文编码器和轻量级混合解码器组成,以从聚合信息中恢复空间细节,Mosaic在平衡准确度和计算成本的同时实现了新的最先进的性能。基于搜索的分类网络,马赛克部署在定制的特征提取骨架顶部,达到目前行业标准MLPerf型号和最先进的架构,达到5%的绝对精度增益。
translated by 谷歌翻译
协调图是一种有前途的模型代理协作在多智能体增强学习中的合作方法。它将一个大的多代理系统分解为代表底层协调依赖性的重叠组套件。此范例中的一个危急挑战是计算基于图形的值分子的最大值动作的复杂性。它指的是分散的约束优化问题(DCOP),其恒定比率近似是NP - 硬问题。为了绕过这一基本硬度,提出了一种新的方法,命名为自组织的多项式协调图(SOP-CG),它使用结构化图表来保证具有足够功能表达的所致DCOP的最优性。我们将图形拓扑扩展为状态依赖性,将图形选择作为假想的代理商,最终从统一的Bellman Optimaly方程中获得端到端的学习范例。在实验中,我们表明我们的方法了解可解释的图形拓扑,诱导有效的协调,并提高各种合作多功能机构任务的性能。
translated by 谷歌翻译
学习稀疏协调图表适应了代理之间的协调动态,这是合作多学院学习的一个长期问题。本文研究了这个问题,并提出了一种新的方法,该方法使用回报函数的方差来构建上下文意识到的稀疏协调拓扑。从理论上讲,我们通过证明回报函数的差异越小,删除相应的边缘后,较小的操作选择将会改变。此外,我们建议学习行动表示,以有效地减少回报功能估计错误对图形构造的影响。为了凭经验评估我们的方法,我们通过在文献中收集经典的协调问题,增加了它们的难度并将其分类为不同类型,我们介绍了多代理协调(MACO)基准。我们在Maco和Starcraft II微管理基准上进行了案例研究和实验,以证明稀疏图学习的动力学,图形稀疏性的影响以及我们方法的学习性能。 (MACO基准和代码可在https://github.com/tonghanwang/casec-maco-benchmark上公开获得。)
translated by 谷歌翻译
We present the next generation of MobileNets based on a combination of complementary search techniques as well as a novel architecture design. MobileNetV3 is tuned to mobile phone CPUs through a combination of hardwareaware network architecture search (NAS) complemented by the NetAdapt algorithm and then subsequently improved through novel architecture advances. This paper starts the exploration of how automated search algorithms and network design can work together to harness complementary approaches improving the overall state of the art. Through this process we create two new MobileNet models for release: MobileNetV3-Large and MobileNetV3-Small which are targeted for high and low resource use cases. These models are then adapted and applied to the tasks of object detection and semantic segmentation. For the task of semantic segmentation (or any dense pixel prediction), we propose a new efficient segmentation decoder Lite Reduced Atrous Spatial Pyramid Pooling (LR-ASPP). We achieve new state of the art results for mobile classification, detection and segmentation. MobileNetV3-Large is 3.2% more accurate on ImageNet classification while reducing latency by 20% compared to MobileNetV2. MobileNetV3-Small is 6.6% more accurate compared to a MobileNetV2 model with comparable latency. MobileNetV3-Large detection is over 25% faster at roughly the same accuracy as Mo-bileNetV2 on COCO detection. MobileNetV3-Large LR-ASPP is 34% faster than MobileNetV2 R-ASPP at similar accuracy for Cityscapes segmentation.
translated by 谷歌翻译
State-of-the-art image and text classification models, such as Convectional Neural Networks and Transformers, have long been able to classify their respective unimodal reasoning satisfactorily with accuracy close to or exceeding human accuracy. However, images embedded with text, such as hateful memes, are hard to classify using unimodal reasoning when difficult examples, such as benign confounders, are incorporated into the data set. We attempt to generate more labeled memes in addition to the Hateful Memes data set from Facebook AI, based on the framework of a winning team from the Hateful Meme Challenge. To increase the number of labeled memes, we explore semi-supervised learning using pseudo-labels for newly introduced, unlabeled memes gathered from the Memotion Dataset 7K. We find that the semi-supervised learning task on unlabeled data required human intervention and filtering and that adding a limited amount of new data yields no extra classification performance.
translated by 谷歌翻译
标准平面(SP)定位对于常规临床超声(US)诊断至关重要。与2D US相比,3D US可以一次扫描获得多个视图平面,并通过添加冠状平面提供完整的解剖结构。但是,由于方向的可变性和巨大的搜索空间,在3D US中手动导航SPS是费力的和有偏见的。在这项研究中,我们介绍了3D US中自动SP本地化的新型增强学习(RL)框架。我们的贡献是三倍。首先,我们将3D中的SP定位作为RL中的基于切线的问题,以重组动作空间并大大降低搜索空间。其次,我们设计了一种辅助任务学习策略,以增强模型识别跨越平面搜索中非SPS和SP的微妙差异的能力。最后,我们通过同时利用空间和解剖学信息来提出空间 - 动态奖励,以有效地指导学习轨迹。我们探讨了我们方法在子宫和胎儿脑数据集上定位四个SP的功效。实验表明,我们的方法达到了较高的定位精度以及稳健的性能。
translated by 谷歌翻译
我们建议使用双BERT特征提取从肺CT-Scan切片图像中提出一个自动COVID1-19诊断框架。在第一个BERT特征提取中,首先使用3D-CNN提取CNN内部特征图。与其使用全局平均池,不如使用晚期的时间po来汇总这些特征图中的时间信息,然后是分类层。该3D-CNN-BERT分类网络首先是对每个原始CT扫描量的固定数量的固定切片图像进行训练的。在第二阶段,在每个CT扫描量的所有切片图像上都提取了3D-CNN-BERT嵌入功能,并且将这些特征平均为固定数量的片段。然后,另一个BERT网络用于将这些多个功能汇总到单个功能中,然后再进行另一个分类层。将两个阶段的分类结果组合在一起以生成最终输出。在验证数据集上,我们达到0.9164的宏F1分数。
translated by 谷歌翻译
本文介绍了全髋关节置换术(THA)的手术机器人系统的开发和实验评估。尽管在关节置换手术中使用的现有机器人系统已经取得了一些进展,但机器人组必须在操作过程中准确地位于目标位置,这在很大程度上取决于外科医生的经验。此外,手持式髋臼铰刀通常表现出不均匀的强度和研磨文件。此外,缺乏实时测量股骨颈长度的技术可能导致结果不佳。为了应对这些挑战,我们提出了一种可实时可追溯的光学定位策略,以减少手术期间对机器人臂的不必要的手动调整,一种稳定磨削的最终效用系统,以及提供股骨颈的实时测量的光学探测器长度和其他参数用于选择适当的假体。下肢的长度在安装假体时测量。实验评估结果表明,根据其准确性,执行能力和鲁棒性,提出的手术机器人系统对于THA是可行的。
translated by 谷歌翻译
近年来使用卷积神经网络对近年来的脸部检测进行了巨大进展。虽然许多面部探测器使用指定用于检测面的设计,但我们将面部检测视为通用对象检测任务。我们基于YOLOV5对象检测器实现了面部探测器,并调用它YOLO5FACE。我们对YOLOV5进行了一些关键修改,并优化了面部检测。这些修改包括在SPP中使用较小尺寸内核在骨干内使用杆块添加五点地标回归头,并在平移块中添加P6输出。我们从超大型模型设计不同型号大小的探测器,以实现对嵌入或移动设备的实时检测的超小型模型的最佳性能。实验结果在viderface数据集上显示,在VGA图像上,我们的脸部探测器可以在几乎所有简单,介质和硬的子集中实现最先进的性能,超过更复杂的指定面检测器。代码可用于\ url {https://github.com/deepcam-cn/yolov5-face}
translated by 谷歌翻译